[Day 1] - 關於我入門 NLP 這檔事 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 1

自我挑戰組

NLP 新手的 30 天入門養成計畫系列第 1 篇

[Day 1] - 關於我入門 NLP 這檔事

16th鐵人賽

sfg

2024-08-06 11:50:31

1061 瀏覽

分享至

2022 年末 ChatGPT 的爆紅，讓所有人的日常生活和工作方式都發生了巨大的變化。對於我來說，過去需要花很多時間完成的 1000 字心得和讀書筆記都可以交給它了，直到現在都還是幾乎每天使用。

在入坑然後變成重度使用者之後，我也開始對生成式人工智慧（Generative AI）產生了興趣，前幾年在找和 ChatGPT 有關的資料之前，我其實對生成式 AI 不怎麼了解，查了一下才發現原來已經有了這麼大的成長，無論是文本、程式碼、影音或是數據分析，生成式 AI 在各行各業都有可以應用的地方，雖然還沒有到可以完全取代人類工作的地步，不過已經看的出來這個領域的潛力有多大。

舉個例子，在圖像生成方面很有名的就是 Stable Diffusion 和 Midjourney，問答方面有 ChatGPT，近一點的話還有 OpenAI 推出的影片生成模型 Sora 以及 Apple 發表的 Apple Intelligence。

當然，除了 ChatGPT 以外，各大企業也推出了自己的語言模型，像是 Gemini 和 Claude，以及台灣的 Taide，因為對這些應用非常的好奇，我在學習生成式 AI 的漫漫長路（~~真的很長~~）上，第一個選擇了自然語言處理相關領域。

自然語言處理（Natural Language Processing, NLP）的概念會放在明天詳細介紹，它的目標是讓電腦能夠像人類一樣理解和處理自然語言，包括語法和語意。通過電腦和人類無障礙的溝通，我們就可以讓電腦進行更複雜的任務，然後應用在各行各業上。

ChatGPT 剛推出的時候，大家都覺得這個真的太有料了，不過凡事都是一體兩面，它也存在一些問題和缺點，像是幻覺（Hallucination）問題，也就是模型生成了看似合理但實際上不正確的內容，誤導使用者吸收錯誤資訊。

而缺點的部分也逐漸的浮現出來，比方說自動生成程式碼的功能降低了成為駭客的門檻，導致資安事件大幅增加，個人隱私洩漏等問題也層出不窮，這些資安方面的問題都讓大家對於語言模型的使用產生了一些隱憂。

不過經過這幾年的發展，很多圍繞著大型語言模型（Large Language Model, LLM）的研究和技術已經變得更加成熟，像是檢索增強生成架構（RAG）或是思維鏈（CoT），對語言模型的監管和評估方式也在完善當中。或許不久之後，真的有可能實現通用人工智慧（Artificial General Intelligence, AGI），讓 AI 完美融入大家的生活。

最後回到我自己吧，這是我第一次參加 IT 鐵人賽，作為一個對 NLP 領域只有半調子理解的新手，我想要好好的打下基礎，學習如何從簡單的 NLP 入門知識逐漸邁向 LLM 應用階段的實作。

我相信網路上有很多非常棒的 NLP 系列筆記，這些好文章也是我吸收知識的管道，不過我想要先理解一次，然後用自己的話寫出來。希望經過這 30 天的學習，可以對當前正火熱的 LLM 有基礎的認識，之後就可以繼續深入研究，或是往生成式 AI 其他領域發展。如果有理解不正確或敘述錯誤的地方，也希望大家能夠提出指正 ~